Telegram Group & Telegram Channel
Never Give Up [2020] - следующее поколение exploration в RL.

Random Network Distillation (RND) создаёт награду для агента за посещение новых состояний в рамках всего обучения. В этой работе добавляют награду за посещение новых состояний в течение одного эпизода.

Как определить новизну?
1) Учат хитрый эмбеддинг состояния - обучаемые эмбеддинги (из отдельной модели) от 2 соседних состояний подают в MLP для предсказания совершённого агентом действия. Учат так для того, чтобы в эмбеддинге содержалась только релевантная для агента информация.
2) В течение эпизода хранят в памяти эмбеддинги всех посещённых состояний.
3) Чем ближе полученный эмбеддинг на каждом новом шаге к эмбеддингам из памяти, тем ниже бонус.

2 вида бонусной награды - эпизодическую и глобальную - умножают друг на друга и добавляют к обычной награде. Глобальную клипают, потому что хотят сделать её влияние более мягким.

Схема бонусной награды на картинке. По результатам обходит на 50% R2D2 и RND на играх со сложным исследованием среды.

@knowledge_accumulator



tg-me.com/knowledge_accumulator/26
Create:
Last Update:

Never Give Up [2020] - следующее поколение exploration в RL.

Random Network Distillation (RND) создаёт награду для агента за посещение новых состояний в рамках всего обучения. В этой работе добавляют награду за посещение новых состояний в течение одного эпизода.

Как определить новизну?
1) Учат хитрый эмбеддинг состояния - обучаемые эмбеддинги (из отдельной модели) от 2 соседних состояний подают в MLP для предсказания совершённого агентом действия. Учат так для того, чтобы в эмбеддинге содержалась только релевантная для агента информация.
2) В течение эпизода хранят в памяти эмбеддинги всех посещённых состояний.
3) Чем ближе полученный эмбеддинг на каждом новом шаге к эмбеддингам из памяти, тем ниже бонус.

2 вида бонусной награды - эпизодическую и глобальную - умножают друг на друга и добавляют к обычной награде. Глобальную клипают, потому что хотят сделать её влияние более мягким.

Схема бонусной награды на картинке. По результатам обходит на 50% R2D2 и RND на играх со сложным исследованием среды.

@knowledge_accumulator

BY Knowledge Accumulator


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/knowledge_accumulator/26

View MORE
Open in Telegram


Knowledge Accumulator Telegram | DID YOU KNOW?

Date: |

Telegram Gives Up On Crypto Blockchain Project

Durov said on his Telegram channel today that the two and a half year blockchain and crypto project has been put to sleep. Ironically, after leaving Russia because the government wanted his encryption keys to his social media firm, Durov’s cryptocurrency idea lost steam because of a U.S. court. “The technology we created allowed for an open, free, decentralized exchange of value and ideas. TON had the potential to revolutionize how people store and transfer funds and information,” he wrote on his channel. “Unfortunately, a U.S. court stopped TON from happening.”

To pay the bills, Mr. Durov is issuing investors $1 billion to $1.5 billion of company debt, with the promise of discounted equity if the company eventually goes public, the people briefed on the plans said. He has also announced plans to start selling ads in public Telegram channels as soon as later this year, as well as offering other premium services for businesses and users.

Knowledge Accumulator from id


Telegram Knowledge Accumulator
FROM USA